A partir del siguiente dataset, se solicita trabajar sobre las siguientes consignas:

1. Exploración de datos:

Explore y explique en que consiste el dataset utilizando herramientas de exploración de datos.

a. Releve las características de los atributos.

## 'data.frame':    984 obs. of  8 variables:
##  $ ISO.country.code                 : chr  "AFG" "AFG" "AFG" "AFG" ...
##  $ Country                          : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ Sub.national.region              : chr  "Badakhshan" "Badghis" "Baghlan" "Balkh" ...
##  $ World.region                     : chr  "South Asia" "South Asia" "South Asia" "South Asia" ...
##  $ MPI.National                     : num  0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 ...
##  $ MPI.Regional                     : num  0.387 0.466 0.3 0.301 0.325 0.313 0.319 0.25 0.245 0.384 ...
##  $ Headcount.Ratio.Regional         : num  67.5 79.3 59.7 55.7 61 65.1 61.4 49.4 47.4 74.6 ...
##  $ Intensity.of.deprivation.Regional: num  57.3 58.8 50.3 54.1 53.3 48.1 52 50.6 51.6 51.5 ...

Se puede observar que el dataset consta de 984 entradas y representa el relevamiento de la pobreza mundial. Este hace uso de un índice desarrollado por la Universidad de Oxford, llamado MPI (por su acrónimo en inglés), el cuál permite tener en cuenta variables adicionales a la económica a la hora de determinar la pobreza y el grado de pobreza en el que se encuentra una persona.

The global Multidimensional Poverty Index (MPI) is an international measure of acute multidimensional poverty covering over 100 developing countries. It complements traditional monetary poverty measures by capturing the acute deprivations in health, education, and living standards that a person faces simultaneously.

Aquí los datos están agrupados en 8 columnas de la siguiente manera:

1. Las primeras cuatro columnas son de tipo texto y representan:

  • ISO.country.code -> Código ISO del país que lo representa unívocamente.
  • Country -> Nombre del país.
  • Sub.national.region -> Región del país (el equivalente a provincias en Argentina).
  • World.region -> Región del mundo a la que pertence el país.

Es importante destacar que las primeras tres columnas conforman la PK del dataset, pues permiten identificar unívocamente cualquier tupla.

2. Las últimas cuatro columnas son de tipo numérico y representan:

  • MPI.National -> Valor del MPI nacional (formado por el agregado de todos los MPI regionales/provinciales de cada país).
  • MPI.Regional -> Valor del MPI de una región/provincia.
  • Headcount.Ratio.Regional -> Porcentaje de la población que se considera pobre en la región/provincia.
  • Intensity.of.deprivation.Regional -> Promedio de distancia por debajo de la línea de la pobreza a la que se encuentra la gente listada como pobre.

b. Represente gráficamente la cantidad de ciudades agrupados por región.

2. Medidas de posición:

Calcule las medidas de posición para los atributos numéricos y agrupe los cálculos de acuerdo a la región.

a. Ordene los resultados del MPI resultante y concluya al respecto.

Media, ordenada por región mundial, del MPI nacional:

##          dataset$World.region dataset$MPI.National
## 3     Europe and Central Asia   0.0289090909090909
## 4 Latin America and Caribbean   0.0542706422018349
## 1                 Arab States    0.110782608695652
## 2   East Asia and the Pacific          0.124328125
## 7              VALOR PROMEDIO    0.204106707317073
## 5                  South Asia    0.209049382716049
## 6          Sub-Saharan Africa    0.332030162412993

Media, ordenada por región mundial, del MPI regional:

##          dataset$World.region dataset$MPI.Regional
## 3     Europe and Central Asia   0.0252727272727273
## 4 Latin America and Caribbean   0.0636651376146789
## 1                 Arab States    0.115286956521739
## 2   East Asia and the Pacific          0.136265625
## 7              VALOR PROMEDIO    0.211330284552846
## 5                  South Asia     0.21962962962963
## 6          Sub-Saharan Africa    0.337127610208817

Media, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional:

##          dataset$World.region dataset$Headcount.Ratio.Regional
## 4 Latin America and Caribbean                 14.2330275229358
## 1                 Arab States                 23.1069565217391
## 2   East Asia and the Pacific                      28.29453125
## 7              VALOR PROMEDIO                 40.1844512195122
## 5                  South Asia                 44.1185185185185
## 3     Europe and Central Asia                 6.42727272727273
## 6          Sub-Saharan Africa                 61.5206496519722

Media, ordenada por región mundial, en la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

##          dataset$World.region dataset$Intensity.of.deprivation.Regional
## 3     Europe and Central Asia                          37.0818181818182
## 4 Latin America and Caribbean                          41.5387096774194
## 1                 Arab States                          42.6539130434783
## 2   East Asia and the Pacific                                45.6015625
## 7              VALOR PROMEDIO                           47.180976602238
## 5                  South Asia                          47.6395061728395
## 6          Sub-Saharan Africa                          51.8703016241299

Observaciones:

  • Tanto en el MPI nacional como en el MPI regional, las dos regiones del mundo que se encuentran por debajo de la media son África Sub-Sahariana y Sur de Asia.

  • En el porcentaje de gente pobre, se repite la ocurrencia -también por debajo de la media- de las dos regiones anteriormente mencionadas y, llamativamente, se suma la región Europa y Asia central.

Nota: la aparición de Europa y Asia central por debajo de la media puede deberse a la baja cantidad de datos relevados acerca de dicha región. No es un dato menor, pues en un conjunto de (e.g) diez valores, un solo outlier puede afectar severamente su media.

  • Por último, en la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza, se repiten África Sub-Sahariana y Sur de Asia también por debajo de la media.

Mediana, ordenada por región mundial, del MPI nacional:

##          dataset$World.region dataset$MPI.National
## 3     Europe and Central Asia                0.008
## 4 Latin America and Caribbean                0.034
## 1                 Arab States                0.045
## 2   East Asia and the Pacific                  0.1
## 7               VALOR MEDIANA                0.174
## 5                  South Asia                0.196
## 6          Sub-Saharan Africa                0.307

Mediana, ordenada por región mundial, del MPI regional/provincial:

##          dataset$World.region dataset$MPI.Regional
## 3     Europe and Central Asia                0.016
## 4 Latin America and Caribbean               0.0375
## 1                 Arab States                0.052
## 2   East Asia and the Pacific               0.0995
## 7               VALOR MEDIANA                0.155
## 5                  South Asia                0.199
## 6          Sub-Saharan Africa                0.333

Mediana, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional/provincial:

##          dataset$World.region dataset$Headcount.Ratio.Regional
## 1                 Arab States                             12.5
## 2   East Asia and the Pacific                               23
## 7               VALOR MEDIANA                            33.95
## 3     Europe and Central Asia                              4.1
## 5                  South Asia                             45.2
## 6          Sub-Saharan Africa                             66.6
## 4 Latin America and Caribbean                             8.95

Mediana, ordenada por región mundial, de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

##          dataset$World.region dataset$Intensity.of.deprivation.Regional
## 3     Europe and Central Asia                                        36
## 1                 Arab States                                      40.6
## 4 Latin America and Caribbean                                      41.4
## 2   East Asia and the Pacific                                      44.7
## 7               VALOR MEDIANA                                      45.6
## 5                  South Asia                                      46.6
## 6          Sub-Saharan Africa                                      50.4

Observaciones:

  • Se sospecha la existencia de un sesgo en el MPI nacional y en el MPI regional respecto a la mediana de la distribución, pues las regiones África Sub-Sahariana y Sur de Asia se encuentran bastante lejos de la misma.

  • En el porcentaje de gente pobre, se repite con Europa y Asia central lo mismo que ocurrió con la media, se la encuentra por debajo de la mediana. Esta vez, acompañada de Latinoamérica y el Caribe. Sospecha de sesgo.

  • En la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza, reinciden África Sub-Sahariana y Sur de Asia por debajo de la mediana.


Moda, ordenada por región mundial, del MPI nacional:

##          dataset$World.region dataset$MPI.National
## 3     Europe and Central Asia                0.008
## 1                 Arab States                0.014
## 2   East Asia and the Pacific                0.066
## 7                  VALOR MODA                0.066
## 4 Latin America and Caribbean                0.072
## 5                  South Asia                0.295
## 6          Sub-Saharan Africa                0.303

Moda, ordenada por región mundial, del MPI regional:

##          dataset$World.region dataset$MPI.Regional
## 3     Europe and Central Asia                0.001
## 1                 Arab States                0.003
## 4 Latin America and Caribbean                0.004
## 7                  VALOR MODA                0.006
## 2   East Asia and the Pacific                0.053
## 6          Sub-Saharan Africa                0.238
## 5                  South Asia                0.294

Moda, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional:

##          dataset$World.region dataset$Headcount.Ratio.Regional
## 6          Sub-Saharan Africa                               72
## 7                  VALOR MODA                              6.5
## 5                  South Asia                             34.5
## 1                 Arab States                              2.2
## 2   East Asia and the Pacific                             13.4
## 4 Latin America and Caribbean                              1.2
## 3     Europe and Central Asia                              0.4

Moda, ordenada por región mundial, de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

##          dataset$World.region dataset$Intensity.of.deprivation.Regional
## 5                  South Asia                                      48.1
## 6          Sub-Saharan Africa                                      47.3
## 2   East Asia and the Pacific                                      42.7
## 7                  VALOR MODA                                      41.9
## 1                 Arab States                                      40.6
## 4 Latin America and Caribbean                                      39.8
## 3     Europe and Central Asia                                      33.3

Observaciones:

La obtención de la moda ha sido modificada utilizando la funcion mfv1() en lugar de mfv(). Esto se debe a que el dataset cuenta con varias modas y el valor retornado con mfv() era un vector en vez de un escalar.

  • La moda del MPI regional es un valor muy bajo.

  • La región Europa y Asia central posee cinco o más modas en cada variable analizada. Es probable que la causa de lo observado sea la poca cantidad de datos relevados, provocando esto la inexistencia de valores repetidos en alguna tupla.

  • África Sub-Sahariana es la región mundial más relevada y a la vez tiene ocho modas en su MPI regional. Además, presenta gran amplitud entre la moda mínima y la máxima. Estas observaciones sugieren un gran contraste de realidades entre los habitantes de la región.


CONCLUSIONES:

  • Se confirma la existencia de un sesgo hacia la derecha sobre la distribución normal de la variable MPI nacional, demostrado tanto por la mediana como la moda. En otras palabras, hay más países pobres que ricos en este dataset.

  • De igual manera, se confirma también la existencia de un sesgo hacia la derecha sobre la distribución normal de la variable MPI regional A diferencia del anterior, este es muy marcado. La moda del MPI regional es el menor valor de todos que puede tomar la variable, lo que indica que hay muchas regiones por país donde habita gente pobre.

  • Respecto al porcentaje de gente pobre, determinado por el MPI regional, se observa la repetición de las mismas regiones mundiales África Sub-Sahariana y Sur de Asia siempre por debajo de las medidas de posición. Esto indica que gran parte de la gente pobre vive en dichas regiones del mundo.

  • Por último, la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza, tiene un cierto sesgo hacia la derecha pero no tan pronunciado como los dos anteriores. Esto indica que de todas las personas relevadas, afortunadamente son pocas las que se encuentran muy por debajo de la línea de la pobreza.

b. Grafique las variables y observe su comportamiento.

Observación:

  • Los histogramas confirman lo planteado en las conclusiones anteriores y evidencian la gravedad del sesgo negativo respecto al porcentaje de gente pobre encontrada en el relevamiento.

3. Medidas de dispersión:

Calcular la desviación estándar, la varianza y el rango para cada una de las variables.

Desviación estándar del MPI nacional:

## [1] 0.1602476

Desviación estándar del MPI regional:

## [1] 0.183621

Desviación estándar del porcentaje de gente pobre según el MPI regional:

## [1] 29.9814

Desviación estándar de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

## [1] 8.047225

Varianza del MPI nacional:

## [1] 0.02567929

Varianza del MPI regional/provincial:

## [1] 0.03371667

Varianza del porcentaje de gente pobre según el MPI regional:

## [1] 898.8845

Varianza de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

## [1] 64.75784

Rango del MPI nacional:

## [1] 0.006 0.605
## [1] 0.599

Rango del MPI regional:

## [1] 0.000 0.744
## [1] 0.744

Rango del porcentaje de gente pobre según el MPI regional:

## [1]  0 99
## [1] 99

Rango de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

## [1] 33.3 75.9
## [1] 42.6

a. Realice diagramas de cajas y scatterplot’s. Documente las conclusiones.


CONCLUSIONES:

  • La región con un MPI nacional más simétrico es Sur de Asia, lo que implica que no hay grandes contrastes entre todos los países que la integran. Si continuamos la observación en el Porcentaje de gente pobre se detecta que lo mencionado ocurre porque a lo largo de la región los países poseen entre ~30% y ~60% de pobreza a pesar de tener máximos y mínimos muy amplios.

  • Con Asia del Este y el Pacífico ocurre algo , sin embargo la existencia de varios outliers vuelven asimétrica a la

  • Se refuerza lo concluído acerca del MPI nacional de África Sub-Sahariana, y se justifica con el boxplot del MPI regional. Esta región mundial posee un gran contraste de realidades entre sus habitantes pues es quién mayor rango tiene en dichas variables, tal como lo muestran los bigotes de ambos gráficos.

  • También se refuerza lo concluído con respecto a Europa y Asia central. Sus datos no son representativos, pues se han relevado muy pocas ciudades en comparación con las demás regiones del mundo.

  • Se observa que el MPI nacional para Estados Árabes tiene pocas regiones nacionales pobres, pues los cuartiles 3 y 4

  • Respecto a la región Latinoamérica y el Caribe, se observa la existencia de varios outliers negativos en las variables MPI regional y Porcentaje de gente pobre, es decir, hacia el lado de la pobreza. A pesar de que existen ciudades que alcanzan ~75% de pobreza, son consideradas outliers porque el resto de las ciudades relevadas se hallan en muchas mejores condiciones. Esto justifica la aparición de la región -en algunas medidas de posición- por debajo de las mismas.

  • Se observa una correspondencia directamente proporcional -lineal en el gráfico- entre el MPI regional y el porcentaje de gente pobre, justamente porque la segunda está determinada por los valores de la primera.

  • Algo similar ocurre entre MPI regional y Distancia promedio debajo del MPI regional, porque también, tal como lo indica su nombre, están estrechamente relacionados al uno delimitar el otro. Gráficamente, la relación se visualiza lineal aunque no tan definida como la mencionada en el ítem anterior.

b. ¿Qué variable es la que presenta mayor dispersión? Tenga en cuenta que cada variable puede estar expresada en diferentes unidades y magnitudes.

La variable con mayor dispersión es Porcentaje de gente pobre.

Tanto su varianza como su desviación estándar dan valores muy por encima de las demás variables.

También ocurre lo mismo con su rango, que cubre la totalidad del rango válido de valores, siendo 0% su mínimo valor registrado y siendo 99% el máximo.

Además, algo no menor, el cálculo de su desviación estándar y su varianza arrojan resultados exhorbitantes.

4. Medidas de asociación:

Calcular el coeficiente de relación de todas las variables y explique el resultado. ¿Qué tipo de gráficos describen mejor esta relación entre variables?

Covarianza entre MPI nacional y MPI regional:

## [1] 0.8591325

Covarianza entre MPI regional y porcentaje de gente pobre:

## [1] 0.9839779

Covarianza entre MPI regional y distancia promedio de gente por debajo de la línea de pobreza:

## [1] 0.9446785

Covarianza entre porcentaje de gente pobre y y distancia promedio de gente por debajo de la línea de pobreza:

## [1] 0.9029842

CONCLUSIONES:


Tal como se mencionó anteriormente, los scatterplots -que aquí se consiguen ejecutando la función plot()- son muy efectivos para mostrar las relaciones entre dos variables.

También es muy útil el gráfico de coordenadas paralelas, conseguido al ejecutar la función parcoord(). Estos son los que se pueden observar arriba de estos párrafos y permiten graficar varias variables en dos dimensiones y agruparlas (o no) por alguna categoría.

Fin.